ICLR 2024 | 持续近端策略优化算法:人类反馈的持续强化学习
人类反馈强化学习(RLHF)作为提升大语言模型(LLM)与人类偏好对齐的重要手段。现有 RLHF 方法在处理不断变化的人类偏好时,往往需要对 LLM 进行全参数重新训练,这在实际应用中面临着时间、计算成本及数据隐私等方面的巨大挑战。
依托哈尔滨工业大学(深圳)和鹏城实验室共同开展的研究,本论文提出一种持续近端策略优化(CPPO)算法,旨在解决这一难题,实现语言模型对动态人类偏好的持续对齐。
1.1 背景与挑战
1.2 创新亮点
动态权重策略:作者提出的 CPPO 算法独创性地引入了自适应权重策略,根据样本特性自动区分用于增强策略学习与巩固过往经验的训练数据。这种策略旨在平衡策略学习与知识保留,确保模型在不断适应新偏好时,旧知识得以有效维护。
超越基准性能:实验结果显示,CPPO 在持续对齐人类偏好的任务上,明显优于传统的持续学习(CL)基线方法。此外,与经典近端策略优化 [4](PPO)相比,CPPO 在非持续学习场景中展现出更高的效率与稳定性。
论文地址:
代码地址:
通过从人类反馈中进行强化学习,可以增强语言模型,使其与人类偏好相一致。RLHF利用人类偏好作为奖励信号,使用 PPO 算法对语言模型进行微调。,对于缺乏标准化解决方案的任务,如摘要、翻译和对话,基于 RLHF 训练的模型能够有效地生成人类偏好的答案,而不会过度优化诸如 ROUGE 或 BLEU 等指标。
在实际应用中,学习不断变化的人类偏好比学习不变的人类偏好更常见。例如,从 COVID-19 病毒在人类社会中的爆发到广泛感染,最终到达群体免疫阶段的过程中,政府政策和人类观念发生了相应的变化。一个与时俱进的AI智能体应该展现出与当前政府政策和不同阶段的人类理解偏好相一致的行为,而不是一成不变。
传统的对齐方法在持续学习人类偏好方面缺乏灵活性。Anthropic 公司通过定期重新训练偏好模型(PM)和 LLM,同时利用新旧数据来学习动态人类偏好,但由于涉及计算成本和数据隐私等问题,其效率低下且不切实际。
在本文中,我们提出了一种更为高效的方法,通过将 RLHF 与持续学习相结合,优化两个相互冲突的目标:保留旧知识和获取新知识。这是一个长期存在的挑战,即稳定性-可塑性平衡的困境。此外,由于语言模型巨大的行动空间(词表),RLHF 算法(如PPO)通常在训练过程中面临效率和稳定性问题。
我们尝试通过设计一种基于样本的加权策略来寻求策略学习和知识保留之间的良好平衡,和更加稳定的学习。首先,我们基于最大化当前奖励和最小化历史遗忘的目标,提出一个理论目标函数。
3.1 持续强化目标
该目标函数通过最大化学习策略在新任务的平均奖励和最小化新旧策略在旧任务上的分布差异得到:
3.2 权重策略
我们的权重策略是受到以下事实的启发,即理想的策略应始终以高概率生成高奖励答案。
3.3 CPPO方法
CPPO 以两种不同的方式实现加权策略:启发式和可学习方法,从而产生两种不同的 CPPO 方法(详情见第 3.2 节)。启发式方法根据策略设定权重,使用线性增益或衰减策略,其权重曲面如图-2 所示。
可学习方法将策略转换为多个不等式约束,并通过优化拉格朗日函数来学习最佳权重。
对真实摘要数据集的实验结果表明,我们提出的 CPPO 方法在持续学习和非持续学习设置中均显著优于 PPO 重新训练方法和强 CL 基线。
此外,稳定性分析实验验证了 CPPO 相对于原始 PPO 算法的训练稳定性的显著提升(图-4)。
3.4 实验验证
实验中,我们将 CPPO 与一系列 CL 基准方法以及 PPO 进行了对比。如表-6 所示,CPPO 在保持与人类偏好一致性的任务上表现出色,无论是在面对全新领域还是已有领域的偏好变化,都能持续高效地调整模型策略,优于所有基线方法。此外,在非持续学习场景中(见附录 F),CPPO 不仅学习效率更高,而且模型稳定性更强,证明了其在处理复杂、动态人类偏好问题上的优越性。
结论
CPPO 为语言模型在人类反馈强化学习中的持续学习提供了一种有效的解决方案。通过动态权重策略的运用,CPPO 成功实现了模型在面对不断变化的人类偏好时,既能迅速适应新偏好,又能有效保持对旧知识的记忆,从而在多个下游任务中展现出强泛化能力和高适应性。与此同时,研究者还构建了两个持续 RLHF 领域的测试基准,为未来的持续 RLHF 研究打下了基础。
参考文献
[1] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in neural information processing systems, 2022, 35: 27730-27744.
[2] Stiennon N, Ouyang L, Wu J, et al. Learning to summarize with human feedback[J]. Advances in Neural Information Processing Systems, 2020, 33: 3008-3021.
[3] Bai Y, Jones A, Ndousse K, et al. Training a helpful and harmless assistant with reinforcement learning from human feedback[J]. arXiv preprint arXiv:2204.05862, 2022.
[4] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv:1707.06347, 2017.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧